Tika এবং Optical Character Recognition (OCR) Integration

Java Technologies - অ্যাপাচি টিকা (Apache Tika)

492

অ্যাপাচি টিকা (Apache Tika) OCR (Optical Character Recognition) ইন্টিগ্রেশনের মাধ্যমে ইমেজ ও স্ক্যান করা ডকুমেন্ট থেকে টেক্সট এক্সট্রাক্ট করতে সক্ষম। সাধারণত Tesseract OCR ইঞ্জিন ব্যবহার করে Tika OCR ফাংশনালিটি পরিচালনা করে। এটি বিশেষ করে PDF, JPEG, PNG এর মতো ইমেজ-ভিত্তিক ফাইলগুলো থেকে লেখা পড়তে ব্যবহার করা হয়।

OCR কীভাবে কাজ করে?

Optical Character Recognition (OCR) হলো এমন একটি প্রযুক্তি যা ইমেজে থাকা টেক্সটকে ডিজিটাল টেক্সটে রূপান্তর করে। এটি ডকুমেন্ট স্ক্যানিং, ইমেজ প্রসেসিং এবং স্বয়ংক্রিয় ডেটা রিডিং কাজে ব্যবহৃত হয়।

Tika OCR সাধারণত Tika Parsers এর সাথে যুক্ত হয় এবং তাতে Tesseract OCR ইঞ্জিন কাজ করে।

Tika OCR এর জন্য প্রয়োজনীয় সেটআপ

১. Tesseract OCR ইন্সটল করা

প্রথমে আপনার সিস্টেমে Tesseract ইন্সটল করতে হবে।

Windows:
Tesseract OCR Installer ডাউনলোড ও ইন্সটল করুন।
Linux (Ubuntu):

sudo apt-get update
sudo apt-get install tesseract-ocr

macOS:

brew install tesseract

২. Tika OCR ডিপেনডেন্সি অ্যাড করা

Maven ব্যবহার করলে নিম্নোক্ত ডিপেনডেন্সি অ্যাড করতে হবে:

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>2.9.0</version>
</dependency>
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-ocr</artifactId>
    <version>2.9.0</version>
</dependency>

Tika এবং Tesseract OCR ব্যবহার করে কোড উদাহরণ

নিচের উদাহরণে দেখানো হয়েছে কিভাবে একটি ইমেজ বা স্ক্যান করা PDF থেকে টেক্সট এক্সট্রাক্ট করা যায়:

import org.apache.tika.Tika;
import org.apache.tika.config.TikaConfig;
import org.apache.tika.parser.ocr.TesseractOCRConfig;
import org.apache.tika.parser.pdf.PDFParserConfig;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;

import java.io.FileInputStream;
import java.io.InputStream;

public class TikaOCRExample {
    public static void main(String[] args) throws Exception {
        // Tesseract OCR কনফিগারেশন সেটআপ
        TesseractOCRConfig ocrConfig = new TesseractOCRConfig();
        ocrConfig.setLanguage("eng"); // OCR ভাষা সেট (Tesseract ইন্সটল অনুযায়ী)
        ocrConfig.setTesseractPath("/usr/bin/tesseract"); // Tesseract এর লোকেশন  

        // Tika কনফিগার সেটআপ
        TikaConfig config = new TikaConfig();
        ContentHandler handler = new BodyContentHandler(-1);

        // ইনপুট ফাইল পড়া
        try (InputStream stream = new FileInputStream("image_or_scanned_doc.pdf")) {
            Tika tika = new Tika();
            String text = tika.parseToString(stream);
            System.out.println("Extracted Text: " + text);
        }
    }
}

ব্যাখ্যা

১. TesseractOCRConfig: এটি Tesseract OCR এর কনফিগারেশন সেটিংস পরিচালনা করে যেমন ভাষা, পাথ।
২. parseToString(): Tika এর মাধ্যমে ডকুমেন্ট প্রসেস করে এবং টেক্সট রিটার্ন করে।
৩. OCR ইন্টিগ্রেশন: Tika Parser স্বয়ংক্রিয়ভাবে Tesseract OCR ব্যবহার করে টেক্সট এক্সট্রাক্ট করে।

Tika OCR এর সুবিধা

ইমেজ থেকে টেক্সট রিডিং: স্ক্যান করা ডকুমেন্ট, ছবিতে থাকা লেখা সহজেই টেক্সটে রূপান্তর করা যায়।
PDF OCR সাপোর্ট: PDF ফাইলের স্ক্যান করা পৃষ্ঠাগুলো OCR ব্যবহার করে প্রসেস করা যায়।
ভাষা সাপোর্ট: Tesseract OCR বিভিন্ন ভাষা সাপোর্ট করে, যা Tika এর মাধ্যমে কনফিগার করা যায়।
ইন্টিগ্রেটেড প্রসেসিং: OCR এবং অন্যান্য ফাইল প্রসেসিং একত্রে করা যায়।

সীমাবদ্ধতা

মেমোরি এবং সময়: বড় ফাইল প্রসেস করতে তুলনামূলক বেশি সময় এবং মেমোরি প্রয়োজন।
কুয়ালিটি নির্ভরতা: স্ক্যানের বা ইমেজের মান (Resolution) ভালো না হলে OCR পারফরম্যান্স কমে যেতে পারে।

Tika OCR এবং Tesseract এর মাধ্যমে ফাইল এবং ইমেজ প্রসেসিং অত্যন্ত কার্যকর ও স্বয়ংক্রিয় হয়ে ওঠে। এটি ডেটা এক্সট্রাকশন এবং ডকুমেন্ট ম্যানেজমেন্টের জন্য শক্তিশালী সমাধান।

Content added By

Md Zahid Hasan

OCR কি এবং এর প্রয়োজনীয়তা

1.2k

OCR এর সংজ্ঞা

OCR (Optical Character Recognition) হল একটি প্রযুক্তি যা ইমেজ বা স্ক্যান করা ডকুমেন্ট থেকে টেক্সট সনাক্ত এবং এক্সট্রাক্ট করে। সাধারণত স্ক্যান করা পিডিএফ (PDF), ফটোগ্রাফ, বা কোনো ইমেজ ফাইল থেকে ছাপা বা হস্তলিখিত টেক্সট ডিজিটাল ফরম্যাটে রূপান্তর করতে OCR ব্যবহার করা হয়।

OCR কীভাবে কাজ করে?

OCR প্রযুক্তি একটি ইমেজ ফাইলকে পিক্সেল ভিত্তিক ডেটা থেকে পাঠযোগ্য টেক্সট এ রূপান্তরিত করে। প্রাথমিকভাবে, এটি তিনটি ধাপে কাজ করে:

১. ইমেজ প্রি-প্রসেসিং (Image Pre-processing)

ইমেজ ক্লিনিং, কালার অপ্টিমাইজেশন এবং কনট্রাস্ট বৃদ্ধি করে ইমেজকে আরও পাঠযোগ্য করা হয়।

২. টেক্সট ডিটেকশন (Text Detection)

ইমেজের ভিতরে কোথায় কোথায় টেক্সট রয়েছে তা সনাক্ত করা হয়।

৩. অক্ষর সনাক্তকরণ (Character Recognition)

প্রতিটি অক্ষর এবং শব্দ সনাক্ত করে ডিজিটাল টেক্সট হিসেবে রূপান্তর করা হয়।

অ্যাপাচি টিকা এবং OCR

অ্যাপাচি টিকা (Apache Tika) OCR প্রযুক্তির সাহায্যে স্ক্যান করা পিডিএফ, ইমেজ, এবং অন্যান্য নন-টেক্সট ফাইল থেকে টেক্সট এক্সট্রাক্ট করতে পারে। এটি মূলত Tesseract OCR ইঞ্জিনের সাথে ইন্টিগ্রেটেড হয়ে কাজ করে।

উদাহরণ: Apache Tika দিয়ে OCR ব্যবহার

import org.apache.tika.Tika;
import org.apache.tika.parser.ocr.TesseractOCRConfig;
import org.apache.tika.parser.pdf.PDFParser;
import java.io.File;

public class OCRExample {
    public static void main(String[] args) throws Exception {
        Tika tika = new Tika();
        File file = new File("scanned.pdf");
        
        // OCR এর মাধ্যমে টেক্সট এক্সট্রাক্ট করা
        String extractedText = tika.parseToString(file);
        System.out.println("Extracted Text: " + extractedText);
    }
}

OCR এর প্রয়োজনীয়তা

১. পাঠযোগ্য ডেটার ডিজিটালাইজেশন

স্ক্যান করা কাগজপত্র বা ফটোগ্রাফ থেকে তথ্য সংগ্রহ করে সহজে ডিজিটাল ডেটাবেসে সংরক্ষণ করা যায়।

২. ডেটা অনুসন্ধান ও বিশ্লেষণ

OCR প্রযুক্তির মাধ্যমে প্রাপ্ত টেক্সট সহজে সার্চ করা এবং বিশ্লেষণ করা সম্ভব।

৩. স্বয়ংক্রিয় ডেটা প্রসেসিং

হাতে ডেটা টাইপ করার পরিবর্তে স্বয়ংক্রিয়ভাবে তথ্য সংগ্রহ করতে OCR ব্যবহার করা হয়।

৪. সংরক্ষণ ও পুনরুদ্ধার

পুরাতন নথি, বই বা অন্য যেকোনো কাগজপত্রকে ডিজিটাল আর্কাইভে সংরক্ষণ করা যায়।

৫. অ্যাক্সেসিবিলিটি (Accessibility)

ভিজুয়ালি ইম্পেয়ার্ড (Visually Impaired) ব্যক্তিদের জন্য টেক্সট রিডার টুলের মাধ্যমে সহজে তথ্য পাঠযোগ্য করা যায়।

OCR এর ব্যবহার ক্ষেত্র

স্ক্যান করা ডকুমেন্ট প্রসেসিং
লাইব্রেরি ও আর্কাইভ ডিজিটালাইজেশন
ব্যাংকিং ও ফিন্যান্সে চেক প্রসেসিং
লিগ্যাল ডকুমেন্ট প্রসেসিং
অনলাইন কনটেন্ট সার্চ ও ম্যানেজমেন্ট

সারাংশ

OCR প্রযুক্তি হল ইমেজ এবং স্ক্যান করা ডকুমেন্ট থেকে টেক্সট এক্সট্রাক্ট করার একটি কার্যকর উপায়। অ্যাপাচি টিকা এর OCR সমর্থন এর মাধ্যমে নন-টেক্সট ফরম্যাট থেকেও সহজে তথ্য এক্সট্রাক্ট এবং প্রসেস করা যায়। এটি ডেটা ডিজিটালাইজেশন এবং অ্যানালাইসিসের জন্য একটি অপরিহার্য টুল।

Content added By

Md Zahid Hasan

Apache Tika এবং Tesseract OCR Integration

406

অ্যাপাচি টিকা (Apache Tika) এবং Tesseract OCR এর সমন্বয়ে বিভিন্ন ইমেজ ও পিডিএফ ফাইল থেকে টেক্সট এক্সট্রাক্ট (Text Extraction) করা সম্ভব। Tesseract হল একটি ওপেন-সোর্স OCR (Optical Character Recognition) টুল, যা ইমেজের মধ্যে থাকা লেখা শনাক্ত করে টেক্সট আকারে ফিরিয়ে দেয়। টিকা এবং Tesseract একসাথে কাজ করলে স্ক্যানড পিডিএফ এবং ইমেজ থেকে টেক্সট রিড করা সহজ হয়।

Tesseract OCR সম্পর্কে সংক্ষিপ্ত পরিচিতি

Tesseract হল একটি জনপ্রিয় OCR ইঞ্জিন, যা গুগল দ্বারা রক্ষণাবেক্ষণ করা হয়। এটি:

ইমেজ-ভিত্তিক টেক্সট রিডিং এর জন্য ব্যবহার হয়।
বহু ভাষা সাপোর্ট করে।
বিনামূল্যে এবং ওপেন-সোর্স।

অ্যাপাচি টিকা এবং Tesseract OCR ইন্টিগ্রেশন

১. প্রয়োজনীয় টুল ইন্সটলেশন

অ্যাপাচি টিকা ইন্সটলেশন

Apache Tika ডাউনলোড করুন।
Tika-app.jar ফাইল রান করার জন্য Java Runtime Environment (JRE) ইন্সটল থাকতে হবে।

Tesseract OCR ইন্সটলেশন

Linux:

sudo apt-get install tesseract-ocr
sudo apt-get install tesseract-ocr-eng

Windows:

Tesseract OCR ডাউনলোড ও ইন্সটল করুন।
ইন্সটলেশন ডিরেক্টরিটি সিস্টেম PATH এ যুক্ত করুন।

২. কনফিগারেশন

Apache Tika স্বয়ংক্রিয়ভাবে Tesseract OCR সাপোর্ট করে যদি Tesseract সঠিকভাবে ইন্সটল থাকে। টিকা OCR কনফিগারেশন ফাইল (tika-config.xml) এর মাধ্যমে Tesseract এর সাথে কাজ করতে পারে।

উদাহরণ tika-config.xml:

<?xml version="1.0" encoding="UTF-8"?>
<tika-config>
    <parser class="org.apache.tika.parser.ocr.TesseractOCRParser">
        <params>
            <param name="tesseractPath" type="string">/usr/bin/tesseract</param>
            <param name="language" type="string">eng</param>
            <param name="outputType" type="string">txt</param>
        </params>
    </parser>
</tika-config>

তথ্য:

tesseractPath: Tesseract এর ইনস্টল পাথ।
language: OCR এর ভাষা (যেমন eng ইংরেজি)।

৩. রানিং Apache Tika এবং Tesseract OCR

টিকা OCR পার্সার ব্যবহার করে ইমেজ বা স্ক্যানড পিডিএফ থেকে টেক্সট এক্সট্রাক্ট করতে কমান্ডটি রান করুন:

java -jar tika-app-x.x.jar -t --config=tika-config.xml input-image.pdf

ব্যাখ্যা:

tika-app-x.x.jar: Apache Tika অ্যাপ ফাইল।
--config: কাস্টম কনফিগারেশন ফাইল।
input-image.pdf: OCR প্রক্রিয়ার জন্য ইনপুট ফাইল।

অ্যাপাচি টিকা ও Tesseract OCR এর সুবিধা

স্ক্যানড ডকুমেন্ট সাপোর্ট: স্ক্যানড পিডিএফ এবং ইমেজ থেকে টেক্সট এক্সট্রাক্ট করা সহজ।
বহুভাষা সমর্থন: Tesseract বহু ভাষায় কাজ করতে পারে।
মাল্টিপার্পাস প্রসেসিং: ইমেজ ও পিডিএফের পাশাপাশি অন্যান্য ফাইল থেকে ডেটা বিশ্লেষণ করা যায়।
ফ্লেক্সিবল কনফিগারেশন: টিকার কনফিগারেশন পরিবর্তন করে কাজকে সহজ করা যায়।

সারাংশ

অ্যাপাচি টিকা এবং Tesseract OCR এর সমন্বয় একটি শক্তিশালী টুল তৈরি করে, যা স্ক্যানড ডকুমেন্ট, ইমেজ এবং পিডিএফ থেকে টেক্সট এক্সট্রাক্ট করতে সক্ষম। এই ইন্টিগ্রেশন বড় স্কেল ডেটা প্রসেসিং এবং ডকুমেন্ট ম্যানেজমেন্টের ক্ষেত্রে গুরুত্বপূর্ণ ভূমিকা পালন করে।

Content added By

Md Zahid Hasan

Image থেকে Text Extraction এবং PDF OCR

319

অ্যাপাচি টিকা (Apache Tika) একটি শক্তিশালী টুল যা বিভিন্ন ফরম্যাটের ডকুমেন্ট এবং মিডিয়া ফাইল থেকে টেক্সট ও মেটাডাটা এক্সট্র্যাক্ট করতে পারে। এর মধ্যে একটি উল্লেখযোগ্য ফিচার হলো ইমেজ থেকে টেক্সট এক্সট্র্যাকশন এবং পিডিএফ OCR (Optical Character Recognition)।

ইমেজ থেকে টেক্সট এক্সট্র্যাকশন

অ্যাপাচি টিকা Tesseract OCR ইঞ্জিন ব্যবহার করে ইমেজ ফাইল (যেমন PNG, JPEG) থেকে টেক্সট এক্সট্র্যাক্ট করতে সক্ষম। Tesseract একটি ওপেন সোর্স OCR টুল যা ইমেজে থাকা টেক্সটকে ডিজিটাল ফর্ম্যাটে রূপান্তর করতে ব্যবহার করা হয়।

প্রয়োজনীয় ডিপেনডেন্সি

টেক্সট এক্সট্র্যাকশন এবং OCR-এর জন্য Tika-parsers এবং Tesseract OCR-এর প্রয়োজন:

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers-standard-package</artifactId>
    <version>2.x.x</version>
</dependency>

উদাহরণ: ইমেজ থেকে টেক্সট এক্সট্র্যাকশন (Java কোড)

import java.io.File;
import java.io.InputStream;
import org.apache.tika.Tika;
import org.apache.tika.parser.ocr.TesseractOCRConfig;
import org.apache.tika.parser.ocr.TesseractOCRParser;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.sax.BodyContentHandler;

public class ImageToText {
    public static void main(String[] args) {
        try {
            Tika tika = new Tika();

            // OCR কনফিগারেশন
            TesseractOCRConfig config = new TesseractOCRConfig();
            config.setLanguage("eng"); // ভাষা সেট করা (ইংরেজি)

            // ফাইল লোড করা
            File file = new File("image.png");
            InputStream inputstream = tika.getStream(file);
            BodyContentHandler handler = new BodyContentHandler();
            Metadata metadata = new Metadata();
            ParseContext context = new ParseContext();
            context.set(TesseractOCRConfig.class, config);

            // Tesseract OCR Parser ব্যবহার করে প্রসেস করা
            TesseractOCRParser parser = new TesseractOCRParser();
            parser.parse(inputstream, handler, metadata, context);

            // টেক্সট প্রিন্ট করা
            System.out.println("Extracted Text: " + handler.toString());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

পিডিএফ OCR (Optical Character Recognition)

OCR প্রযুক্তির মাধ্যমে স্ক্যান করা পিডিএফ ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা যায়। Tika-পার্সার প্যাকেজ Tesseract OCR ইঞ্জিনকে ইন্টিগ্রেট করে, যার ফলে ইমেজ-ভিত্তিক পিডিএফ থেকেও টেক্সট বের করা সম্ভব।

পিডিএফ OCR-এর জন্য কনফিগারেশন

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers-standard-package</artifactId>
    <version>2.x.x</version>
</dependency>
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.x.x</version>
</dependency>

উদাহরণ: পিডিএফ থেকে টেক্সট এক্সট্র্যাকশন

import java.io.FileInputStream;
import java.io.InputStream;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.parser.ocr.TesseractOCRConfig;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;

public class PDFWithOCR {
    public static void main(String[] args) {
        try {
            BodyContentHandler handler = new BodyContentHandler();
            Metadata metadata = new Metadata();
            ParseContext context = new ParseContext();

            // OCR কনফিগারেশন
            TesseractOCRConfig config = new TesseractOCRConfig();
            config.setLanguage("eng"); // ভাষা সেট করা
            context.set(TesseractOCRConfig.class, config);

            // পিডিএফ প্রসেস করা
            InputStream stream = new FileInputStream("scanned.pdf");
            PDFParser pdfParser = new PDFParser();
            pdfParser.parse(stream, handler, metadata, context);

            // টেক্সট প্রিন্ট করা
            System.out.println("Extracted Text: " + handler.toString());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

অ্যাপাচি টিকা OCR-এর সুবিধা

ইমেজ এবং পিডিএফ উভয়ের জন্য সাপোর্ট।
টেক্সট এক্সট্র্যাকশন স্বয়ংক্রিয় এবং দ্রুত।
ভাষা সাপোর্ট: বিভিন্ন ভাষার OCR প্রসেসিং সম্ভব।

সীমাবদ্ধতা

ইমেজ বা স্ক্যানের গুণগত মান খারাপ হলে সঠিকভাবে টেক্সট বের করা কঠিন।
বড় পিডিএফ ফাইল প্রসেসিংয়ে সময় বেশি লাগে।

সারাংশ:
অ্যাপাচি টিকা Tesseract OCR ব্যবহার করে ইমেজ এবং স্ক্যান করা পিডিএফ থেকে সহজে টেক্সট এক্সট্র্যাক্ট করতে পারে। এটি একটি শক্তিশালী টুল, যা ডেটা প্রসেসিং এবং ডকুমেন্ট অ্যানালাইসিসের ক্ষেত্রে কার্যকর ভূমিকা রাখে।

Content added By

Md Zahid Hasan

উদাহরণ সহ OCR ব্যবহার

295

অ্যাপাচি টিকা (Apache Tika) একটি শক্তিশালী টুল যা টেক্সট এক্সট্রাকশনসহ OCR (Optical Character Recognition) প্রযুক্তির মাধ্যমে ইমেজ বা স্ক্যান করা ডকুমেন্ট থেকে টেক্সট রিড এবং প্রসেস করতে পারে। অ্যাপাচি টিকা Tesseract OCR ইঞ্জিনের সাহায্যে এই কাজটি সম্পন্ন করে।

OCR কি?

OCR (Optical Character Recognition) হলো এমন একটি প্রযুক্তি যা ইমেজ বা স্ক্যান করা ফাইল থেকে লেখাকে পড়ে এবং সেই টেক্সটকে ডিজিটাল ফরম্যাটে রূপান্তরিত করে।

অ্যাপাচি টিকার মাধ্যমে OCR কিভাবে কাজ করে?

অ্যাপাচি টিকা Tesseract OCR লাইব্রেরির ইন্টিগ্রেশন ব্যবহার করে OCR-এর মাধ্যমে ইমেজ ফাইল বা স্ক্যান করা পিডিএফ ফাইল থেকে টেক্সট এক্সট্রাক্ট করতে পারে।

প্রয়োজনীয় ডিপেন্ডেন্সি

OCR ফিচার ব্যবহারের জন্য অ্যাপাচি টিকা এবং Tesseract OCR ইনস্টল থাকতে হবে।

Tesseract OCR ইনস্টলেশন (Linux/Ubuntu):

sudo apt-get install tesseract-ocr

উদাহরণ: Tika এবং OCR

১. Tika CLI এর মাধ্যমে OCR ব্যবহার

ধরা যাক আপনার কাছে একটি স্ক্যান করা পিডিএফ বা ইমেজ ফাইল আছে (example.jpg)। অ্যাপাচি টিকা কমান্ড লাইন ইন্টারফেস (CLI) ব্যবহার করে টেক্সট এক্সট্রাক্ট করতে পারবেন।

কমান্ড:

java -jar tika-app-x.x.jar -t example.jpg

Output:
ফাইল থেকে টেক্সট এক্সট্রাক্ট হয়ে টার্মিনালে প্রদর্শিত হবে।

২. Java প্রোগ্রামে OCR ব্যবহার

OCR সাপোর্ট সহ অ্যাপাচি টিকা কোডের মাধ্যমে ইমেজ থেকে টেক্সট প্রসেস করা যায়।

Java কোড:

import org.apache.tika.Tika;
import org.apache.tika.parser.ocr.TesseractOCRConfig;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.ocr.TesseractOCRParser;
import org.apache.tika.metadata.Metadata;

import java.io.File;
import java.io.FileInputStream;

public class TikaOCRExample {
    public static void main(String[] args) throws Exception {
        // Tika এবং Tesseract OCR সেটআপ
        Tika tika = new Tika();
        TesseractOCRConfig config = new TesseractOCRConfig();
        config.setLanguage("eng"); // ভাষা সেট করুন
        ParseContext context = new ParseContext();
        context.set(TesseractOCRConfig.class, config);

        // ফাইল প্রসেসিং
        File file = new File("example.jpg");
        Metadata metadata = new Metadata();
        FileInputStream inputStream = new FileInputStream(file);

        String text = tika.parseToString(inputStream, metadata, context);
        System.out.println("Extracted Text: " + text);
    }
}

স্ক্যান করা পিডিএফ থেকে টেক্সট এক্সট্রাকশন

অ্যাপাচি টিকার মাধ্যমে স্ক্যান করা পিডিএফ থেকে টেক্সট এক্সট্রাক্ট করার জন্যও Tesseract OCR ব্যবহার করা হয়।

কমান্ড লাইন:

java -jar tika-app-x.x.jar -t scanned_document.pdf

Output:
টেক্সট স্ক্যান করা পিডিএফ থেকে এক্সট্রাক্ট হয়ে প্রিন্ট হবে।

Tika OCR কনফিগারেশন

OCR প্রসেস আরও কাস্টমাইজ করার জন্য TesseractOCRConfig ব্যবহার করা হয়।

প্রধান সেটিংস:

Language: OCR এর ভাষা (ডিফল্ট eng)
DPI: স্ক্যান করা ফাইলের রেজোলিউশন সেট করা
Timeout: OCR প্রসেসিংয়ের সময়সীমা নির্ধারণ

Example:

config.setLanguage("ben"); // বাংলা OCR
config.setTimeout(120);    // ২ মিনিট টাইমআউট

সুবিধা

মাল্টি-ল্যাংগুয়েজ সাপোর্ট: Tesseract-এর মাধ্যমে অ্যাপাচি টিকা একাধিক ভাষায় OCR করতে পারে।
ইমেজ এবং স্ক্যান পিডিএফ সাপোর্ট: ফরম্যাটের সীমাবদ্ধতা নেই।
ইন্টিগ্রেশন সহজ: Java API এবং CLI উভয়ের মাধ্যমে ব্যবহারযোগ্য।

সারাংশ

অ্যাপাচি টিকা এবং Tesseract OCR-এর সমন্বয়ে স্ক্যান করা ডকুমেন্ট, ইমেজ বা পিডিএফ থেকে সহজে এবং কার্যকরীভাবে টেক্সট এক্সট্রাক্ট করা যায়। এটি ডেটা প্রসেসিং এবং ডকুমেন্ট ম্যানেজমেন্টের জন্য একটি অত্যন্ত কার্যকর সমাধান।

Content added By

Md Zahid Hasan

Apache Tika এর পরিচিতি Apache Tika Setup এবং প্রথম প্রোজেক্ট Apache Tika এর MIME Type Detection File Type এবং Content Detection Apache Tika দিয়ে Text Extraction

Tika এবং Optical Character Recognition (OCR) Integration

OCR কীভাবে কাজ করে?

Tika OCR এর জন্য প্রয়োজনীয় সেটআপ

১. Tesseract OCR ইন্সটল করা

২. Tika OCR ডিপেনডেন্সি অ্যাড করা

Tika এবং Tesseract OCR ব্যবহার করে কোড উদাহরণ

ব্যাখ্যা

Tika OCR এর সুবিধা

সীমাবদ্ধতা

OCR কি এবং এর প্রয়োজনীয়তা

OCR এর সংজ্ঞা

OCR কীভাবে কাজ করে?

১. ইমেজ প্রি-প্রসেসিং (Image Pre-processing)

২. টেক্সট ডিটেকশন (Text Detection)

৩. অক্ষর সনাক্তকরণ (Character Recognition)

অ্যাপাচি টিকা এবং OCR

উদাহরণ: Apache Tika দিয়ে OCR ব্যবহার

OCR এর প্রয়োজনীয়তা

১. পাঠযোগ্য ডেটার ডিজিটালাইজেশন

২. ডেটা অনুসন্ধান ও বিশ্লেষণ

৩. স্বয়ংক্রিয় ডেটা প্রসেসিং

৪. সংরক্ষণ ও পুনরুদ্ধার

৫. অ্যাক্সেসিবিলিটি (Accessibility)

OCR এর ব্যবহার ক্ষেত্র

সারাংশ

Apache Tika এবং Tesseract OCR Integration

Tesseract OCR সম্পর্কে সংক্ষিপ্ত পরিচিতি

অ্যাপাচি টিকা এবং Tesseract OCR ইন্টিগ্রেশন

১. প্রয়োজনীয় টুল ইন্সটলেশন

অ্যাপাচি টিকা ইন্সটলেশন

Tesseract OCR ইন্সটলেশন

২. কনফিগারেশন

উদাহরণ tika-config.xml:

৩. রানিং Apache Tika এবং Tesseract OCR

অ্যাপাচি টিকা ও Tesseract OCR এর সুবিধা

সারাংশ

Image থেকে Text Extraction এবং PDF OCR

ইমেজ থেকে টেক্সট এক্সট্র্যাকশন

প্রয়োজনীয় ডিপেনডেন্সি

উদাহরণ: ইমেজ থেকে টেক্সট এক্সট্র্যাকশন (Java কোড)

পিডিএফ OCR (Optical Character Recognition)

পিডিএফ OCR-এর জন্য কনফিগারেশন

উদাহরণ: পিডিএফ থেকে টেক্সট এক্সট্র্যাকশন

অ্যাপাচি টিকা OCR-এর সুবিধা

সীমাবদ্ধতা

উদাহরণ সহ OCR ব্যবহার

OCR কি?

অ্যাপাচি টিকার মাধ্যমে OCR কিভাবে কাজ করে?

প্রয়োজনীয় ডিপেন্ডেন্সি

উদাহরণ: Tika এবং OCR

১. Tika CLI এর মাধ্যমে OCR ব্যবহার

২. Java প্রোগ্রামে OCR ব্যবহার

স্ক্যান করা পিডিএফ থেকে টেক্সট এক্সট্রাকশন

Tika OCR কনফিগারেশন

প্রধান সেটিংস:

সুবিধা

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!